Solar forecasting from ground-based sky images using deep learning models has shown great promise in reducing the uncertainty in solar power generation. One of the biggest challenges for training deep learning models is the availability of labeled datasets. With more and more sky image datasets open sourced in recent years, the development of accurate and reliable solar forecasting methods has seen a huge growth in potential. In this study, we explore three different training strategies for deep-learning-based solar forecasting models by leveraging three heterogeneous datasets collected around the world with drastically different climate patterns. Specifically, we compare the performance of models trained individually based on local datasets (local models) and models trained jointly based on the fusion of multiple datasets from different locations (global models), and we further examine the knowledge transfer from pre-trained solar forecasting models to a new dataset of interest (transfer learning models). The results suggest that the local models work well when deployed locally, but significant errors are observed for the scale of the prediction when applied offsite. The global model can adapt well to individual locations, while the possible increase in training efforts need to be taken into account. Pre-training models on a large and diversified source dataset and transferring to a local target dataset generally achieves superior performance over the other two training strategies. Transfer learning brings the most benefits when there are limited local data. With 80% less training data, it can achieve 1% improvement over the local baseline model trained using the entire dataset. Therefore, we call on the efforts from the solar forecasting community to contribute to a global dataset containing a massive amount of imagery and displaying diversified samples with a range of sky conditions.
translated by 谷歌翻译
本文探讨了数据驱动模型使用简单的分类标签预测电源系统中电压偏移事件的有效性。通过将预测视为一项分类分类任务,工作流程的特征是计算负担低。关于意大利150 kV子贸易网络的真实部分的概念验证案例研究,该网络托管大量风能发电,证明了该提案的一般有效性,并深入了解了几个广泛的优势和劣势利用此应用程序的预测模型。
translated by 谷歌翻译
物理过程引起的随机噪声是测量的固有特征,也是大多数信号处理任务的限制因素。鉴于最近对数据驱动信号建模的生成对抗网络(GAN)的兴趣,重要的是要确定甘恩在目标数据集中忠实地再现噪声的程度。在本文中,我们提出了一项实证研究,旨在阐明时间序列的这个问题。也就是说,我们检查了两个通用时间序列gans,一种直接的时间序列模型和使用短时傅立叶变换(STFT)表示的基于图像的模型的能力,可以学习常见的广泛噪声类型在电子和通信系统中:带限制的热噪声,功率定律噪声,射击噪声和冲动噪声。我们发现,甘斯有能力学习许多噪声类型,尽管当gan架构不太适合噪音的某些方面,例如具有极端异常值的冲动时间序列时,它们可以预见。我们的发现提供了有关当前时间序列gan的能力和潜在局限性的见解,并突出了进一步研究的领域。此外,我们的一系列测试提供了一个有用的基准,可帮助开发时间序列的深层生成模型。
translated by 谷歌翻译
太阳能的间歇性质挑战了光伏(PV)在电网中的大规模集成。使用深度学习的基于天空图像的太阳预测已被认为是预测短期波动的一种有希望的方法。但是,对于基于图像的太阳预测,几乎没有公开可用的标准化基准数据集,这限制了不同预测模型的比较和预测方法的探索。为了填补这些空白,我们介绍了Skipp'd-天空图像和光伏发电数据集。该数据集包含三年(2017-2019)的质量控制下采样的天空图像和PV发电数据,这些数据可用于使用深度学习的短期太阳能预测。此外,为了支持研究的灵活性,我们还提供了高分辨率,高频天空图像和PV发电数据以及并发的Sky录像。我们还包括一个包含数据处理脚本和基线模型实现的代码库,以供研究人员重现我们以前的工作并加速其在太阳预测中的研究。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
目前,深层神经网络(DNN)主要使用一阶方法进行训练。其中一些方法(例如Adam,Adagrad和Rmsprop及其变体)通过使用对角线矩阵来预先处理随机梯度。最近,通过通过按层块 - diagonal矩阵对随机梯度进行预处理,已开发出有效的二阶方法,例如KFAC,K-BFGS,洗发水和TNT。在这里,我们提出了一种自适应的“迷你块Fisher(MBF)”预处理方法,其中在这两类方法之间。具体而言,我们的方法对经验渔民矩阵使用块对基近似值,在DNN中的每一层(无论是卷积还是馈送)和完全连接,相关的对角线本身都是块 - diagonal,并且由A组成。大量适度的迷你块。我们的新方法利用GPU的并行性来有效地对每一层的大量矩阵进行计算。因此,MBF的均值计算成本仅略高于一阶方法。将我们提出的方法的性能与在自动编码器和CNN问题上的几种基线方法进行了比较,以在时间效率和概括功率方面验证其有效性。最后,证明MBF的理想化版本线性收敛。
translated by 谷歌翻译
最近的工作[4]分析了两次可差化函数的最佳解决方案附近的亚当局部融合。结果发现,学习率必须足够小,以确保最佳解决方案的局部稳定性。以上的收敛结果也适用于Adamw。在这项工作中,我们提出了一种新的自适应优化方法,通过在两个方面扩展Adamw,以便放宽对局部稳定性的小型学习率的要求,我们称之为AIDA。首先,我们考虑跟踪梯度大小的第2矩R_T。当p = 2时,r_t减少到adamw的v_t。假设{m_t}是adamw的第一个时刻。众所周知,更新方向M_ {T + 1} /(v_ {t + 1} + epsilon)^ 0.5(或m_ {t + 1} /(v_ {t + 1} ^ 0.5 + epsilon)的Adamw(或者亚当)可以被分解为标志向量符号(M_ {t + 1})通过幅度的向量乘以量数| m_ {t + 1} | /(v_ {t + 1} + epsilon)^ 0.5(或| m_ {t + 1} | /(v_ {t + 1} ^ 0.5 + epsilon)。Aida旨在以| m_ {t + 1} | ^ q /(r_ {t + 1} + epsilon)^(q / p)(或| m_ {t + 1} | ^ q /((r_ {t + 1})^(q / p)+ epsilon),减少到当(p,q)=(2,1)时的adamw。假设原点0是两次可差化函数的本地最佳解决方案。理论上是在理论上发现的,当Q> 1和P> 1在Aida中,原点0只有当重量衰减是非零时局部稳定。进行实验,用于解决十个玩具优化问题和训练变压器和训练变压器和Swin变压器,为两个深度学习(DL)任务。实证研究表明,在许多场景中表明(包括两个DL任务),AIDA具有特定设置(P,Q)不等于(2,1)优于Adamw的设置(p,q)=(2,1)。
translated by 谷歌翻译
估计机器翻译系统的质量是该领域的研究人员的持续挑战。许多以前使用往返翻译的尝试作为质量的衡量标准失败,并且对其是一种可行的质量估算方法有很大的分歧。在本文中,我们重新审视了往返翻译,提出了一个旨在解决这种方法发现的先前陷阱的系统。我们的方法利用近期语言表示的进步学习,以更准确地衡量原始和往返翻译句子之间的相似性。实验表明,虽然我们的方法没有达到现有技术的当前状态的性能,但它仍然可能是某些语言对的有效方法。
translated by 谷歌翻译
在本文中,我们考虑基于移动普通(SEMA)的广泛使用但不完全了解随机估计器,其仅需要{\ bf是一般无偏的随机oracle}。我们展示了Sema在一系列随机非凸优化问题上的力量。特别是,我们分析了基于SEMA的SEMA的{\ BF差异递归性能的各种随机方法(现有或新提出),即三个非凸优化,即标准随机非凸起最小化,随机非凸强烈凹入最小最大优化,随机均方优化。我们的贡献包括:(i)对于标准随机非凸起最小化,我们向亚当风格方法(包括ADAM,AMSGRAD,Adabound等)提供了一个简单而直观的融合证明,随着越来越大的“势头” “一阶时刻的参数,它给出了一种替代但更自然的方式来保证亚当融合; (ii)对于随机非凸强度凹入的最小值优化,我们介绍了一种基于移动平均估计器的单环原始 - 双随机动量和自适应方法,并确定其Oracle复杂性$ O(1 / \ epsilon ^ 4)$不使用大型批量大小,解决文献中的差距; (iii)对于随机双脚优化,我们介绍了一种基于移动平均估计器的单环随机方法,并确定其Oracle复杂性$ \ widetilde o(1 / \ epsilon ^ 4)$,而无需计算Hessian矩阵的SVD,改善最先进的结果。对于所有这些问题,我们还建立了使用随机梯度估计器的差异递减结果。
translated by 谷歌翻译
3D描绘解剖结构是医学成像分析中的主要目标。在深度学习之前,统计形状模型施加解剖结构并产生高质量的表面是核心技术。在深度学习之前,统计形状模型施加解剖结构并产生高质量的表面是核心技术。今天完全卷积的网络(FCN),而主导,不提供这些功能。我们呈现深度隐式统计形状模型(幻像),一种划分的新方法,将卷积神经网络(CNNS)的表示力与SSM的稳健性结合。幻像使用深隐性表面表示来产生紧凑且描述性的形状潜空间,允许解剖学方差的统计模型。为了可靠地适应图像到图像,我们介绍了一种新颖的刚性和非刚性姿势估计管道,其被建模为Markov决策过程(MDP)。我们概述了一个培训制度,包括倒置的焦点培训和深度领域学习(MSL)的深刻实现。数据集关于病理肝脏分割任务的实验表明,幻灯片可以比三个领先的FCN模型更加强大,包括NNU-Net:将平均豪索轿车距离(HD)减少7.7-14.3毫米并改善最坏情况骰子索兰系数(DSC)达1.2-2.3%。更富豪地,直接反映临床部署方案的数据集上的交叉数据集实验表明,分别将平均DSC和HD分别改善平均DSC和HD,以及最坏情况的DSC 5.4-7.3%。这些改进超过了具有高质量表面的划分的任何益处。
translated by 谷歌翻译